Celem artykułu jest zaprezentowanie korzyści wynikających z wykorzystania na potrzeby statystyki publicznej (rynku pracy) narzędzi do automatycznego pobierania danych na temat ofert pracy zamieszczanych na stronach internetowych zaliczanych do zbiorów big data, a także związanych z tym wyzwań. Przedstawiono wyniki eksperymentalnych badań z wykorzystaniem metod web scrapingu oraz text miningu. Analizie poddano dane z lat 2017 i 2018 pochodzące z najpopularniejszych portali z ofertami pracy. Odwołano się do danych Głównego Urzędu Statystycznego (GUS) zbieranych na podstawie sprawozdania Z-05. Przeprowadzona analiza prowadzi do wniosku, że web scraping może być stosowany w statystyce publicznej do pozyskiwania danych statystycznych z alternatywnych źródeł, uzupełniających istniejące bazy danych statystycznych, pod warunkiem zachowania spójności z istniejącymi badaniami.
big data, text mining, web scraping, rynek pracy
C18, M15
Beręsewicz, M., Szymkowiak, M. (2015). Big data w statystyce publicznej – nadzieje, osiągnięcia, wyzwania i zagrożenia. Ekonometria, 2(48), 9–22. DOI: 10.15611/ekt.2015.2.01.
Braaksma, B., Zeelenberg, K. (2015). “Re-make/Re-model”: Should big data change the modelling paradigm in official statistics? Statistical Journal of the IAOS, 31(2), 193–202. DOI: 10.3233/sji-150892.
Daas, P. J. H., Puts, M. J., Buelens, B., van den Hurk, P. A. M. (2015). Big Data as a Source for Official Statistics. Journal of Official Statistics, 31(2), 249–262. DOI: https://doi.org/10.1515/jos-2015-0016.
Douglas, L. (2001). 3D Data Management: Controling Data Volume, Velocity and Variety. Pobrane z: http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf.
Gałecka-Burdziak, E., Pater, R. (2015). Ile jest wolnych miejsc pracy w Polsce? Gospodarka Narodowa, 279(5), 171–186. DOI: https://doi.org/10.33119/GN/100855.
GUS. (2018). Popyt na pracę w 2017 r. Warszawa: Główny Urząd Statystyczny.
GUS. (2019). Popyt na pracę w 2018 r. Warszawa: Główny Urząd Statystyczny.
Hackl, P. (2016). Big Data: What can official statistics expect? Statistical Journal of the IAOS, 32(1), 43–52. DOI: 10.3233/SJI-160965.
Kitchin, R. (2015). The opportunities, challenges and risks of big data for official statistics. Statistical Journal of the IAOS, 31(3), 471–481. DOI: 10.3233/SJI-150906.
Kureková, L. M., Beblavý, M., Thum-Thysen, A. (2015). Using online vacancies and web surveys to analyse the labour market: a methodological inquiry. IZA Journal of Labor Economics, 4(18), 1–20. DOI: 10.1186/s40172-015-0034-4.
Maślankowski, J. (2014). Data Quality Issues Concerning Statistical Data Gathering Supported by Big Data Technology. W: S. Kozielski, D. Mrozek, P. Kasprowski, B. Małysiak-Mrozek, D. Kostrzewa (red.). Beyond Databases, Architectures and Structures (s. 92–101) Cham: Springer.
Miller, S. (2014). Collaborative Approaches Needed to Close the Big Data Skills Gap. Journal of Organization Design, 3(1), 26–30. DOI: 10.7146/jod.9823.
Rousidis, D., Garoufallou, E., Balatsoukas, P., Sicilia, M. (2014). Metadata for Big Data: a preliminary investigation of metadata quality issues in research data repositories. Information Services&Use, 34(3–4), 279–286. DOI: 10.3233/ISU-140746.
Shahin, S. (2016). A Critical Axiology for Big Data Studies. Palabra Clave, 19(4), 972–996. DOI: 10.5294/pacla.2016.19.4.2.
Vale, S. (2015). International collaboration to understand the relevance of Big Data for official statistics. Statistical Journal of the IAOS, 31(2), 159–163. DOI: 10.3233/sji-150889.